Métodos Quantitativos Aplicados à Ciência Política
Frederico Bertholini
Formalizando Hipóteses
Um caso comum - Esta análise está correta?
Comparação de médias
A resposta é não. (por quê?)
Em todo caso, ela ilustra uma situação bem comum na prática, onde se deseja comparar médias. No caso, deseja-se comparar as taxas médias de mortalidade em cidades onde as armas são proibidas ou liberadas. Deseja-se testar se a média de homicídios em cidades onde armas são liberadas é menor que a média de homicídios em cidades onde armas são proibidas. (Como você colheria dados para esse estudo?)
As hipóteses, portanto, são:
\(H_0:\mu_L=\mu_P\)
\(H_A:\mu_L<\mu_P\)
Lembrando a base de trabalho
summary(dfe %>% dplyr::select(-id))
media faltas turma idade
Min. :40.00 Min. : 0.00 Length:60 Min. :18.00
1st Qu.:70.00 1st Qu.: 2.00 Class :character 1st Qu.:19.75
Median :73.75 Median : 4.00 Mode :character Median :22.00
Mean :74.38 Mean : 4.25 Mean :25.23
3rd Qu.:80.00 3rd Qu.: 6.00 3rd Qu.:29.00
Max. :95.00 Max. :10.00 Max. :49.00
interess tempocup escola estcivil
Secundário:24 não tem : 4 Tudo privada :20 Casado :17
Principal :34 até 2h : 3 Maior parte privada:15 Solteiro:42
NA's : 2 de 2h a 4h:11 Maior parte pública:18 NA's : 1
de 4h a 6h:42 Tudo pública : 7
+ de 6h : 0
nota1 nota2
Min. :39.00 Min. :41.00
1st Qu.:67.50 1st Qu.:72.00
Median :72.75 Median :76.75
Mean :71.99 Mean :76.76
3rd Qu.:78.00 3rd Qu.:82.25
Max. :95.00 Max. :97.00
Diferença entre médias (amostras não pareadas)
\(H_0:\text{A média de notas de casados e solteiros é igual}\) ou \(H_0:\mu_c-\mu_s=0\) ou \(H_0:\mu_c = \mu_s\)
\(H_1:\text{A média de notas de casados e solteiros é diferente}\) ou \(H_1:\mu_c-\mu_s \neq 0\) ou \(H_1:\mu_c \neq \mu_s\)
Variável dependente: Notas
Variável independente: Situação conjugal
O que eu quero testar? Se a situação conjugal faz diferença na nota.
É efeito? Não! (Pearl, 2020) Inferência vs. Causalidade
# calculate the observed statisticmedia_turmas <- dfe %>% dplyr::filter(turma %in%c("3joan","3joad")) %>%specify(media ~ turma) %>%calculate(stat ="t", order =c("3joan","3joad"))# generate the null distribution with the theoretical tdistribuicao_teorica <- dfe %>% dplyr::filter(turma %in%c("3joan","3joad")) %>%specify(media ~ turma) %>%hypothesize(null ="independence") %>%calculate(stat ="t", order =c("3joan","3joad"))
Visualizando
# visualize the randomization-based null distribution and test statistic!distribuicao_teorica %>%visualize(method ="theoretical") +shade_p_value(media_turmas,direction ="two-sided") +labs(title ="Distribuição teórica",x="Estatística t",y="Densidade")
Usando ggpubr
library(ggpubr)dfe %>% dplyr::filter(turma %in%c("3joan","3joad")) %>%ggerrorplot(x ="turma", y ="media",color ="turma",position =position_dodge(0.5)) +stat_compare_means(aes(label =paste0(..p.signif..," ou p = ", ..p.format..)),method ="t.test") +theme(legend.position ="right")
Tamanho do efeito
O d de Cohen pode ser usado como uma estatística de tamanho de efeito para um teste t de duas amostras.
É calculado como a diferença entre as médias de cada grupo, dividido pelo desvio padrão agrupado dos dados.
Um d de Cohen de 0,5 sugere que as médias diferem pela metade do desvio padrão dos dados. Um d de Cohen de 1,0 sugere que as médias diferem por um desvio padrão dos dados.
\[
H_{0}: \mu_{1}=\mu_{2}=\cdots=\mu_{k}, \quad H_{A}: \mu_{i} \neq \mu_{j} \text{ para pelo menos um par } i \text{ e } j
\]
O que é ANOVA?
Variabilidade dentro dos grupos = Soma dos Quadrados Dentro (SQD) \[
S Q D=\sum_{j=1}^{c} \sum_{i=1}^{n_{j}}\left(X_{i j}-\bar{X}_{j}\right)^{2}
\] Variabilidade entre grupos = Soma de Quadrados Entre (SQE)
\[
S Q E=\sum_{j=1}^{c} n_{j}\left(\bar{X}_{j}-\overline{\bar{X}}\right)^{2}
\] Variabilidade total = Soma Total de Quadrados (STQ)
\[
S T Q=\sum_{j=1}^{c} \sum_{i=1}^{n_{j}}\left(X_{i j}-\overline{\bar{X}}\right)^{2}
\]
ANOVA
\(\text{STQ} = \text{SQE} + \text{SQD}\)
Fração da variabilidade explicada pelo grupo = \(\frac{\text{SQE}}{\text{STQ}}\)
É possível que, na população, as médias dos grupos sejam iguais e, por acaso, as médias das amostras sejam diferentes.
Quanto maior a variabilidade entre grupos (SQE) e menor a variabilidade dentro dos grupos (SQD), mais evidências teremos que as médias são diferentes na população.
Princípio: Teste F: \(\frac{\text{Variância entre grupos}}{\text{Variância dentro dos grupos}}\)
\(F = \frac{\text{MQE}}{\text{MQD}}\)
Na prática
\(H_0:\text{A média de notas das turmas é igual}\) ou \(H_0:\mu_\text{3joad}=\mu_\text{3joan}=\mu_\text{5joan}\)
\(H_A:\text{A média de notas de pelo menos uma das turmas é diferente}\) ou \(H_A:\mu_\text{3joad} \neq \mu_\text{3joan} \neq \mu_\text{5joan}\)
Variável dependente: Notas
Variável independente: Turma
Função aov
ANOVAtest <- dfe %>%aov(.,formula = media ~ turma)summary(ANOVAtest)
Df Sum Sq Mean Sq F value Pr(>F)
turma 2 703 351.5 4.116 0.0214 *
Residuals 57 4867 85.4
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Multiple pairwise test against a reference groupdfe %>%ggboxplot(x ="turma", y ="media",color ="turma", palette ="npg")+stat_compare_means(method ="anova", label.y =120)+stat_compare_means(aes(label = ..p.signif..),method ="t.test", ref.group ="3joad")
Two-way ANOVA (dois fatores)
summary(ANOVAtest2 <- dfe %>%aov(.,formula = media ~ turma + interess))
Df Sum Sq Mean Sq F value Pr(>F)
turma 2 1016 508.1 7.521 0.00131 **
interess 1 2 1.6 0.024 0.87840
Residuals 54 3648 67.6
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
2 observations deleted due to missingness
Two-way ANOVA (dois fatores)
library(agricolae); HSD.test(ANOVAtest2, trt =c("turma","interess"),console = T)
Study: ANOVAtest2 ~ c("turma", "interess")
HSD Test for media
Mean Square Error: 67.5601
turma:interess, means
media std r se Min Max Q25 Q50 Q75
3joad:Principal 82.77778 9.052317 9 2.739832 70.0 95.0 80.000 85.00 85.000
3joad:Secundário 78.88889 7.817360 9 2.739832 65.0 90.0 75.000 80.00 85.000
3joan:Principal 68.95833 12.082027 12 2.372764 40.0 80.0 66.875 72.50 77.500
3joan:Secundário 74.16667 4.082483 6 3.355595 70.0 80.0 70.625 73.75 76.875
5joan:Principal 73.07692 4.466758 13 2.279678 67.5 82.5 70.000 72.50 75.000
5joan:Secundário 73.33333 7.071068 9 2.739832 62.5 85.0 70.000 70.00 77.500
Alpha: 0.05 ; DF Error: 54
Critical Value of Studentized Range: 4.178265
Groups according to probability of means differences and alpha level( 0.05 )
Treatments with the same letter are not significantly different.
media groups
3joad:Principal 82.77778 a
3joad:Secundário 78.88889 ab
3joan:Secundário 74.16667 ab
5joan:Secundário 73.33333 ab
5joan:Principal 73.07692 ab
3joan:Principal 68.95833 b
Homogeneidade
plot(ANOVAtest2, 1)
library(car);leveneTest(media ~ turma * interess, data = dfe)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 5 0.8897 0.4948
52
Uma área positiva indica associação positiva entre as variáveis.
Mas como saber se é uma associação forte ou fraca?
Qual a unidade de medida da covariância?
Para eliminar a unidade de medida das variáveis, podemos usar a padronização z. Desta forma, obtemos o coeficiente de correlação, que é a covariância com variáveis padronizadas. Este coeficiente varia de -1 a 1.